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WE: 针对 现 有 基于 Tacotron 模型 的 蒙古 语 语音 合成 系统 存在 的 两 个 问题 : 1) 难以 实时 合成 ; 2) 合成 语音 保 真 
度 较 低 ， 该 文 基于 FastSpeech2 模型 提出 了 完全 非 自 回归 的 实时 、 高 保 真 蒙古 语 语音 合成 模型 MonTTS。 为 了 提高 
MonTTS 模型 合成 蒙古 语 语音 的 韵律 自然 度 / 保 真 度 ， 根 据 蒙古 语 声学 特点 提出 以 下 三 点 创新 改进 : 1) 使 用 蒙古 文 音素 
序列 来 表征 蒙古 文 发 音信 息 ; 2) 提出 音素 级 的 声学 调节 器 以 学 习 长 时 韵律 变化 ; 3) 提出 基于 蒙古 语 语音 识别 和 自 回 
归 语 音 合成 两 种 时 长 对 齐 方法 。 同 时 ， 该 文 构建 了 一 个 当前 最 大 规模 的 蒙古 语 语音 合成 数据 库 : MonSpeech。 实 验 结果 
表明 MonTTS 在 韵律 自然 度 方 面 的 主观 平均 意见 分 数 (Mean Opinion Score, MOS) 达到 4.53， 显 著 优 于 当前 最 优 的 基 
于 Tacotron 的 蒙古 语 语音 合成 基线 系统 和 基线 FastSpeech2 模型 ; MonTTS 合成 实时 率 达 3.63x103， 满 足 实时 高 保 真 
合成 要 求 。 最 后 ， 文 中 涉及 的 训练 脚本 和 预 训练 模型 全 部 开源 (https://github.conyttslt/MonTTS)。 
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MonTTS: A Real-time and High-fidelity Mongolian TTS Model with Complete 
Non-autoregressive Mechanism 


LIU Rui! , KANG Shiyin?, LI Jingdong?, BAO Feilong!, and GAO Guanglai! 


(1. Department of computer science, Inner Mongolia University, Hohhot 010021, China ; 2. Huya Inc, Guangzhou 
511400, China; 3. Sogou Inc, Beijing 100000, China) 


Abstract : Aiming at achieving real-time and high-fidelity speech generation for Mongolian Text-to-Speech (TTS), a 
FastSpeech2 based non-autoregressive Mongolian TTS system, termed MonTTS, is proposed. To improve the overall perfor- 
mance in terms of prosody naturalness/fidelity, MonTTS adopted three novel mechanisms: 1) Mongolian phoneme sequence 
was used to represent the Mongolian pronunciation; 2) phoneme-level variance adaptor was employed to learn the long-term 
prosody information; 3) two duration aligners, that are Mongolian speech recognition and Mongolian autoregressive TTS based 
models, were used to provide the duration supervise signal. Besides, we build a large-scale Mongolian TTS corpus, named 
MonSpeech. The experimental results show that our MonTTS outperforms the state-of-the-art Tacotron-based Mongolian TTS 
and standard FastSpeech?2 baseline systems significantly, with real-time rate (RTF) of 3.63 1073 and Mean Opinion Score 
(MOS) of 4.53, meeting the real-time and high-fidelity inference requirements. The training recipe and pretrained TTS models 
are freely available at https://github.com/ttslr/MonTTS. 
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语音 合成 主要 将 任意 给 定 的 文本 转换 为 语音 
波形 0 。 作 为 人 工 智 能 领域 中 的 关键 技术 之 一 ， 
它 广 泛 应 用 于 人 机 交互 、 泛 娱乐 、 在 线 教育 等 领 
WEI, 


WaveNet 的 声 码 器 同样 遵循 自 回 归结 构 进 行 语音 
波形 采样 点 的 预测 ， 这 样 的 自 回 归 生 成 过 程 耗 时 
严重 20。 而 语音 重 构 的 时 间 效 率 同 样 影响 整个 语 
音 合成 的 实时 性 能 。 因 此 ， 为 了 加 快 神经 网 络 声 
码 器 的 语音 生成 速度 ， 非 自 回归 神经 网 络 声 码 器 
逐渐 受到 广泛 关注 。 如 Parallel WaveNetP28 Wave- 
Glow??] MelGAN®°!, HiFi-GANS'. FARA 


传统 的 语音 合成 方法 主要 包括 基于 波形 拼接 
BJ 和 统计 参数 声学 建 模 (如 : 隐 马 尔 可 夫 模型 上 5) 
的 语音 合成 技术 。 随 着 深度 学 习 技 术 的 发 展 ， 基 
于 深度 神经 网 络 结构 的 语音 合成 模型 被 广泛 研究 
[6-8], 最 终 利 用 声 码 器 将 声学 模型 输出 的 语音 参数 
转换 为 语音 波形 9， 如 STRAIGHT!!! 和 
WORLD023 等 。 近 年 来 , 许多 复杂 的 机 器 学 习 任务 
受益 于 强 有 力 的 深度 神经 网 络 模型 ， 在 性 能 上 得 
到 突破 性 的 提升 ， 也 催生 了 端 到 端 语音 合成 技术 
的 研究 中 。 端 到 端 语音 合成 技术 有 效 避 免 了 传统 
多 阶段 建 模 导致 的 误差 积累 ， 同 时 简化 了 过 多 的 
人 为 假设 ， 实 现 了 媲美 真实 语音 的 合成 效果 。 具 
体 来 说 , 主要 包括 两 方面 的 研究 突破 : 1) 端 到 端 
声学 建 模 ; 2) 神经 网 络 声 码 器 。 

对 于 声学 建 模 研究 ， 端 到 端 声 学 建 模 主要 采 
“编码 器 -解码 器 ”结构 直接 学 习 < 文 本 ， 语 音 


音 高 保 真 的 同时 ， 极 大 的 提升 了 语音 生成 速度 ， 
能 够 达到 实时 语音 生成 。 

当前 ， 汉 语 和 英语 等 主流 语种 的 语音 合成 技 
术 已 发 展 较为 成 熟 ， 低 资源 语言 的 语音 合成 逐渐 
受到 越 来 越 多 研究 人 员 的 关注 63。 蒙 古语 隶属 于 
阿尔 泰语 系 蒙古 语族 蒙 语 支 ， 它 是 蒙古 语族 中 最 
著名 且 使 用 最 广泛 的 语言 B31。 在 全 世界 范围 内 ， 
使 用 人 数 大 约 有 600 万 人 HN。 同 时 ， 蒙 古语 也 是 
中 国内 蒙古 自治 区 的 主体 民族 语言 。 因 此 ， 研 究 
面向 蒙古 语 的 语音 合成 技术 对 于 少数 民族 地 区 的 
教育 、 交 通 、 通 讯 等 领域 具有 重要 意义 。 

为 了 开发 和 研究 蒙古 语 语音 合成 系统 ， 前 人 
己 经 开展 了 大 量 的 工作 。 文 献 [35-38] 等 结合 蒙古 
语 语言 特点 对 基于 波形 拼接 的 传统 语音 合成 方法 
进行 研究 。 文 献 [39] 提 出 了 基于 HMM 声学 模型 
的 蒙古 语 语音 合成 的 方法 。 文 献 [40] 首 次 将 深度 


数 > 对 的 对 齐 关 系 b9， 其 中 比较 有 代表 性 的 是 
Tacotron 模型 051、Transformer 模型 49 及 它们 的 多 
PAR AUTO), A ERA EET AIG, ABE DAE 
一 时 刻 的 输出 作为 下 一 时 刻 的 输入 进行 声学 参数 
的 预测 。 这 样 的 自 回归 解码 结构 极 大 限制 了 语音 
合成 的 实时 性 RU， 并 不 能 充分 利用 目前 高 度 发 展 
的 (如 GPU 等 ) 并 行 计算 硬件 的 计算 资源 。 为 了 
提高 解码 速度 ， 研 究 人 员 进 一 步 提出 基于 非 自 回 
归 声 学 建 模 的 语音 合成 模型 3, 如 FastSpeechP23l、 
FastSpeech2 (s) 5 等 。 非 自 回 归 声 学 模型 可 以 以 
给 定 文本 为 输入 ， 并 行 输出 全 部 声学 参数 序列 ， 
而 不 依赖 于 历史 时 刻 解码 得 到 的 声学 参数 。 

对 于 声 码 器 研究 ， 研 究 人 员 提 出 了 基于 神经 
网 络 的 声 码 器 来 直接 对 语音 样本 点 建 模 ， 如 
WaveNet”*!, WaveRNN?°l45 , 42 E 05 48 Fe 
习 语 音 参 数 和 语音 波形 采样 点 之 间 的 映射 关系 ， 
wei SARS RAO, (eT 


a 


学 习 技 术 引 入 蒙古 语 语音 合成 ,使 用 基于 DNN 的 
声学 模型 代替 HMM 声学 模型 ， 进 一 步 提 升 了 蒙 
古语 语音 合成 的 整体 表现 ;文献 [41] 实 现 了 基于 
Tacotron 的 蒙古 语 语音 合成 系统 。 上 述 工作 为 蒙 
古语 语音 合成 技术 的 研究 奠定 了 坚实 的 基础 。 其 
中 ， 基 于 端 到 端 模型 的 蒙古 语 语音 合成 系统 的 合 
成 语音 的 整体 表现 相 较 传统 方法 也 获得 了 显著 提 
FA, 但 是 ， 基 于 Tacotron 的 端 到 端 蒙古 语 语音 
合成 系统 在 实时 性 和 自然 度 两 方面 还 有 很 多 问题 
需要 解决 : 1) 现 有 端 到 端 蒙 古语 语音 合成 模型 采 
用 自 回 归 声 学 建 模 , 依赖 解码 历史 进行 参数 预测 ; 
2) 语音 重 构 模块 使 用 Griffin-Lim 算法 等 传统 信 
号 处 理 技术 。 传 统 算 法 进行 语音 重 构 时 会 不 可 避 
免 的 引入 特征 伪 影 中， 限制 了 合成 语音 的 音频 保 
真 度 ， 导 致 合成 语音 与 真人 发 音 还 有 很 大 差距 。 

因此 ， 如 何 提升 现 有 蒙古 语 语音 合成 系统 的 实时 
性 和 合成 语音 音频 保 真 度 , 将 是 本 文 关注 的 重点 。 


* 期 刘 瑞 等 : MonTTS: 完全 非 自 回归 


的 实时 、 高 保 真 蒙古 语 语音 合成 模型 3 


如 前 所 述 ， 非 自 回归 声学 建 模 可 以 并 行 生成 语音 
参数 序列 ， 与 自 回 归 声 学 建 模 相 比 ， 可 以 大 大 提 
升 合成 语音 的 效率 。 同 时 ， 非 自 回 归 神 经 声 码 器 
以 语音 参数 为 条 件 输入 ， 可 以 直接 对 语音 采样 点 
进行 精确 预测 ， 从 而 保证 合成 语音 具有 很 好 的 音 
频 保 真 度 。 
根据 以 上 研究 ， 为 了 解决 蒙古 语 语音 合成 系 
统 目 前 面临 的 实时 性 和 音频 保 真 度 两 个 问题 ， 本 
文 首次 提出 了 包括 非 自 回归 声学 模型 和 非 自 回归 
神经 声 码 器 的 完全 非 自 回归 蒙古 语 语音 合成 模型 
MonTTS， 其 中 非 自 回归 模型 基于 当前 最 先进 的 
FastSpeech2[*41 模 型 。 但 FastSpeech2 中 以 语音 帧 
为 单位 学 习 韵 律 变 化 的 方式 难以 学 习 到 蒙古 语 丰 
富 的 韵律 变化 ， 为 了 提高 合成 蒙古 语 语音 的 韵律 
自然 度 / 保 真 度 , 我 们 面向 蒙古 语 提出 了 以 下 三 点 
创新 性 的 改进 : 1) 针对 蒙古 语文 本 表示 ， 拉 丁字 
符 表 示 不 足以 表征 蒙古 语 的 发 音信 息 ， 本 文 使 用 
音素 序列 作为 输入 表示 ;2) 针 对 蒙古 语 韵 律 建 模 ， 
我 们 提出 音素 级 别 的 基 频 、 能 量 预测 器 ， 以 更 好 
的 学 习 长 时 韵律 变化 : 3) 针对 蒙古 语 时 长 建 模 ， 
我 们 提出 基于 蒙古 语 语音 识别 和 蒙古 语 自 回归 语 
音 合成 模型 对 训练 数据 的 音素 时 长 信息 进行 提取 ， 
为 非 自 回归 蒙古 语 时 长 预测 提供 精确 的 时 长 监督 
信息 。 对 于 非 自 回归 神经 声 码 器 ， 为 了 快速 生成 
高 保 真 合成 语音 ， 我 们 选择 当前 最 先进 的 基于 生 
成 对 抗 网 络 (GAN) 的 声 码 器 : HiFi-GANPY, we 
行 语 音波 形 的 重建 。 
为 了 确保 基于 数据 驱动 的 端 到 端 声 学 建 模 技 
术 在 蒙古 语 中 得 到 充分 训练 ， 我 们 构建 了 当前 最 
大 规模 《〈 约 40 小 时 ) 的 蒙古 语 语音 合成 语料库 : 
MonSpeech。 基 于 MonSpeech 数据 的 一 系列 实验 
结果 证 明 ， 本 文 提 出 的 MonTTS 模型 在 实时 性 和 
音频 保 真 度 两 方面 显著 优 于 所 有 基线 系统 。 
综 上 所 述 ， 本 文 主要 贡献 总 结 为 如 下 几 点 : 

。 本文 提 出 了 完全 非 自 回归 蒙古 语 语音 合成 模 
型 MonTTS， 包 括 改进 的 非 自 回归 声学 建 模 和 非 
自 回 归 神 经 声 码 器 。 

e 本文 针 对 蒙古 语 提出 了 三 点 创新 的 改进 ， 包 
括 音素 序列 的 文本 发 音 表 示 、 音 素 级 别 的 长 时 韵 
律 建 模 、 蒙 古语 音素 时 长 监督 提取 等 ， 在 高 效 合 
成 语音 的 同时 有 效 保证 了 合成 蒙古 语 语音 的 韵律 
自然 度 。 


。 本文 构 建 了 目前 最 大 规模 ( 约 40 小 时 ) AY Be 
古语 语音 合成 语料库 MonSpeech， 以 尽 可 能 满足 
基于 数据 驱动 的 端 到 端 语音 合成 模型 的 训练 数据 

。 本文 首次 针对 非 自 回归 蒙古 语 语音 合成 开展 
研究 ， 填 补 了 国内 蒙古 语 语音 合成 研究 的 空白 ， 
本 文 工 作 也 将 对 促进 蒙古 文智 能 信息 处 理 和 少数 
民族 地 区 的 人 工 智能 技术 发 展 贡献 力量 。 

一 系列 主观 和 客观 实验 证 明 ， 本 文 的 蒙古 语 
语音 合成 模型 MonTTS 在 音频 保 真 度 和 实时 性 两 
方面 均 优 于 现 有 的 蒙古 语 语音 合成 基线 系统 ， 并 
且 可 以 为 蒙古 语 上 游 语 音 交 互 系 统 提供 基础 服务 。 
论文 结构 安排 如 下 : 第 二 章 介 绍 蒙古 语文 字 
及 音 系 特点 ; 第 三 章 介 绍 蒙古 语 语音 合成 语料库 
MonSpeech; 第 四 章 对 本 文 提 出 的 MonTTS 系统 
的 模型 框架 进行 详细 介绍 ;第 五 章 展示 详细 的 实 
验 结 果 ; 最 后 对 全 文 进行 总 结 。 


现行 蒙古 文 拥 有 两 种 不 同 的 书写 系统 6: 西 
里 尔 蒙 古文 和 传统 蒙古 文 ， 传 统 蒙 古文 是 一 种 拼 
音 文字 ， 本 文 的 研究 对 象 是 传统 蒙古 文 。 

在 文字 表示 方面 ， 传 统 蒙 古文 形态 丰富 ， 其 
构 词 方式 独特 且 复杂 。 汉 语言 文字 在 形态 方面 几 
乎 不 存在 任何 变化 ， 其 单词 表示 是 由 独立 的 字 组 
成 的 ， 单 词 又 进一步 组 成 短语 。 蒙 古文 单词 虽然 
也 是 由 蒙古 文字 符 直 接 拼 接 而 成 ， 但 是 与 汉语 相 
比 其 构 词 特点 更 加 复杂 ， 蒙 古文 单词 是 通过 在 词 
根 或 者 词 干 后 连接 后 级 构造 而 成 。 蒙 古文 单词 可 
以 拆 分 解构 为 多 个 组 成 部 分 : 包括 词根 、 构 词 后 
级 、 构 形 后 级 和 结尾 后 级 等 。 
音 系 表示 方面 ， 音 素 是 蒙古 语 发 音 的 基本 单 
元 ， 蒙 古语 发 音 是 由 音素 决定 的 ， 音 素 序列 相 比 
于 字符 序列 能 够 更 准确 地 表征 发 音信 息 。 
由 一 个 或 几 个 音素 组 成 的 最 小 的 语音 片段 ， 语 音 
的 节奏 一 般 指 语句 中 各 音节 的 长 短 快慢 。 另 外 ， 
音节 单元 和 词 干 后 绥 一 样 ， 同 样 具 有 区 别 词义 的 
功能 。 

本 文 将 蒙古 文 拉丁 序列 表示 中 的 每 个 拉丁 单 
词 称 为 单词 (Word), 将 拉丁 单词 中 的 每 个 字母 都 
称 为 字符 (Character)， 音素 序列 中 的 每 个 音素 单 


Tr. | 
a NÆ 
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元 称 为 音素 (Phoneme). 


2 蒙古 语 语音 合成 语料库 MonSpeech 


MonSpeech 由 内 蒙古 大 学 计算 机 学 院 授 权 ， 
在 内 蒙古 大 学 计算 机 学 院 标准 录音 室 录 制 完 成 。 
文字 抄本 包含 约 4 万 条 蒙古 文 语 句 ， 其 中 包含 政 
治 、 商 业 、 和 运动、 娱乐 等 领域 。 该 抄本 有 覆盖 了 全 
部 的 蒙古 文字 母 及 丰富 的 单词 组 合 情 况 。 发 音 人 


为 一 名 蒙古 族 女性 专业 蒙古 语 播音 员 , 年 龄 22 岁 。 


最 终 录制 数据 总 时 长 约 40 小 时 (其 中 平均 每 句 话 
包含 首尾 静音 段 0.3 秒 )， 数 据 存储 格式 为 : 采样 
率 44.1 kHz, 采 样 精度 16 bit。 


表 1 MonSpeech 数据 统计 详情 表 


Category Statistics 
Total 2145828 
Mean 65 
Character i 
Min 5 
Max 210 
Total 2259159 
Mean 72 
Phoneme i 
Min 8 
Max 432 
Total 332500 
Mean 10 
Word i 
Min 2 
Max 34 
# Unique 59 
# Unique 38744 


MonSpeech 数据 统计 情况 如 表 1 所 示 。 整 个 
数据 的 蒙古 文字 符 总 数 〈Total) 为 2145828 个 ， 
平均 (Mean) 每 一 句 话 包含 65 个 字符 , 最短 (Min) 
句子 的 字符 个 数 是 5, 最 长 (Max) 句子 的 字符 个 
数 是 210。 对 于 音素 单元 ，MonSpeech 一 共有 
2259159 个 音素 ， 平 均 每 句 话 包含 72 个 音素 ， 最 
短 句 子 的 音素 个 数 是 8， 最 长 句子 的 音素 个 数 是 


Histogram : »=4.72,0 =2.04 


Probability 


Duration 


图 1 MonSpeech 句子 时 长 统计 直方 图 


3 MonTTS: 完全 非 自 回归 的 实时 、 高 保 真 
蒙古 语 语音 合成 模型 


MonTTS 语音 合成 模型 完全 采用 非 自 回归 机 
制 。 具 体 包括 非 自 回归 蒙古 语 声 学 模型 和 非 自 回 
归 神 经 声 码 器 。 如 图 2a 所 示 ， 给 定 蒙 古文 句子 ， 
非 自 回归 蒙古 语 声 学 模型 以 蒙古 文句 子 的 音素 序 
列 为 输入 ， 并 行 输出 对 应 的 Mel 谱 序 列 。 非 自 回 
归 声 学 声 码 器 以 句子 的 Mel 谱 序列 为 输入 ， 并 行 
输出 语音 采样 点 并 最 终 输 出 合成 蒙古 语 语音 。 下 
面 将 对 这 两 部 分 内 容 做 详细 介绍 。 

3.1 非 自 回归 声学 模型 


非 自 回归 蒙古 语 声学 模型 以 FastSpeech2 为 
基础 ， 有 具体 结构 包括 蒙古 文 文本 预 处 理 
(Mongolian Text Preprocessing)、 蒙 古文 文本 编 
人 码 器 (Mongolian Text Encoder)、 蒙 古语 声学 调节 
器 (Mongolian Variance Adaptor) 和 蒙古 语 声 学 解 
码 器 (Mel Decoder)。 其 中 , 蒙古 文 文本 预 处 理 将 
输入 的 蒙古 文句 子 转换 为 其 音素 表示 ， 得 到 蒙古 
文 音素 序列 (Mongolian Phoneme Sequence). 3 
古文 文本 编码 器 以 蒙古 文 音素 序列 为 输入 ， 将 其 


432。 单词 的 总 数 、 平 均 数 、 最 大 数量 和 最 小 数量 
分 别 为 332500、10、2 和 34。 最 终 统计 得 到 音素 
集合 59 个 ， 词 汇 量 38744 个 。 另 外 ， 我 们 对 数据 
中 的 句子 时 长 进行 统计 ， 统 计 结 果 如 图 1 所 示 。 
图 中 可 以 看 到 ， 大 多 数 句 子 集 中 在 4 秒 到 6 秒 之 
He HF MonSpeech 中 包含 了 大 量 蒙古 文人 名 ， 
因此 1 秒 左右 的 语音 比例 达到 了 1%。 总 体 来 说 ， 
句子 时 长 服从 正 态 分 布 。 


编码 为 高 层 的 音素 特征 表示 ; 蒙古 语 声学 调节 器 
内 部 的 时 长 (duration )、 基 频 (Pitch)、 能 量 (Energy) 
预测 器 以 音素 向 量 为 输入 ， 分 别 预测 出 时 长 基 频 
能 量 等 声学 信息 并 将 其 规整 并 附加 到 音素 向 量 ， 
得 到 调节 后 的 隐 含 向 量 表示 ;最 后 声学 解码 器 以 
隐 含 向 量 表示 为 输入 对 Mel 谱 进 行 并 行 预测 。 
需要 注意 的 是 ， 蒙 古语 文本 编码 器 和 声学 解 
码 器 采用 类 似 于 FastSpeech2p59 中 的 结构 。 与 
FastSpeech2 不 同 的 是 ,我们 的 MonTTS 针对 蒙古 
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语 的 语言 特性 做 出 三 点 必要 的 创新 改进 : 1) 我 们 
使 用 蒙古 文 预 处 理 器 将 蒙古 文 文本 转换 为 其 音素 
序列 表示 。 与 拉丁 字符 序列 相 比 ， 音 素 序 列 可 以 
更 好 的 表征 蒙古 文 的 发 音信 息 ; 2) FastSpeech2 中 
的 声学 调节 器 只 对 帧 级 别 的 基 频 、 能 量 信 息 进 行 
预测 。 帧 级 别 的 声学 信息 不 足以 学 习 到 音素 级 别 
的 超 音 段 韵律 信息 ， 从 而 不 能 很 好 的 刻画 长 时 变 
化 的 韵律 结构 。 蒙 古语 属于 黏着 语 ， 与 汉语 或 英 
语 相 比 ， 其 发 音 具有 很 复杂 的 韵律 变化 9。 为 了 


了 对 蒙古 语 时 长 预测 器 提供 精确 的 监督 信号 ， 我 


们 分 别提 出 基于 预 训练 蒙古 语 语音 识 
古语 自 回归 语音 合成 模型 两 种 方法 来 完成 时 长 预 


别 模型 和 蒙 


提取 ， 并 将 在 实验 部 分 对 两 者 的 效果 差异 i 
较 。 下 面 将 对 蒙古 文 文本 预 处 理 、 蒙 


行 比 


古语 声学 调 


节 器 和 蒙古 语 时 长 预测 器 及 相关 损失 函数 进行 详 


细 介 绍 。 
3.1.1 蒙古 文 文本 预 处 理 


传统 蒙古 文具 有 独特 的 和 着 语 特性 ， 这 为 蒙 


更 好 的 刻画 蒙古 语 的 长 时 韵律 变化 ， 在 蒙古 语 声 
学 调节 器 中 ， 我 们 提出 音素 级 别 的 基 频 、 能 量 预 
测 器 ， 以 学 习 蒙 古文 丰富 的 长 时 韵律 变化 ; 3) 
FastSpeech2 中 的 声学 调节 器 在 对 英语 句子 的 时 
长 信息 进行 预测 时 ， 需 要 使 用 预 提 取 的 字符 时 间 
(语音 帧 的 个 数 ) 信息 提供 精确 的 监督 信号 ， 而 
字符 持续 时 间 是 一 种 与 语种 高 度 相 关 的 信息 。 英 
语 预 提取 时 长 信息 在 蒙古 语 场景 下 并 不 可 用 。 为 


古文 文本 处 理 带 来 很 大 挑战 。 有 具体 来 说 ， 蒙 古文 
字母 在 词 中 的 表现 形式 变化 不 定 ， 其 显现 形式 在 


不 同 的 上 下 文 语 境 中 会 各 不 相同 ， 因 此 导致 蒙古 


文字 母 存在 严重 的 形 同 音 异 现象 。 这 种 现象 导致 


蒙古 文 文本 数据 中 存在 很 多 编码 错误 的 字母 。 如 


前 所 述 ， 本 文 的 蒙古 文 文本 预 处 理 主要 将 蒙古 文 


文本 转换 为 其 规范 的 音素 序列 表示 。 因 此 ， 蒙 古 


文 文本 预 处 理 包括 编码 校正 ， 拉 丁 转 换 、 文 本 正 


则 化 和 字母 转 音素 四 个 模块 。 首 先 ， 编 码 校正 模 


(b) Mongolian Variance Adaptor and the Loss functions for Phoneme duration, pitch and energy predictors 


f Ground Truth 
OSS _PP Phoneme Pitch 
ue Phoneme), Ground Truth 
中 Pitch Loss_pe Phoneme Energ: 
Predictor, 
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(Attention alignment) 


(d) Mongolian ARTTS Duration Extraction 


图 2 MonTTS 整体 框架 图 ， 包 括 (a) 模型 结构 ; (b) 音素 级 声学 调节 器 内 部 结构 及 相应 的 损失 函数 ; (c) 基于 蒙古 语 语音 识别 的 
WHA: 〈d) 基于 蒙古 语 自 回 归 语音 合成 的 对 齐 方法 。 


块 对 输入 蒙古 文中 的 字符 编码 进行 校正 SI， 将 编 
码 错误 的 蒙古 文字 符 转 换 为 其 正确 的 显现 形式 ; 

之 后 ， 根 据 蒙古 文 拉丁 字母 对 照 表 [ 的 ， 将 校正 后 
的 蒙古 文字 符 统 一 转换 为 拉丁 表示 形式 。 其 次 ， 

针对 蒙古 文 文本 中 经 常 出 现 的 高 频 特 殊 字符 (如 : 
时 间 、 日 期 、 英 文 单词 和 阿拉 伯 数 字 等 ), 设计 了 
BIKA) 140 种 [9 相应 的 正则 表达 式 进行 过 滤 。 这 
140 SH ENIRAR E m S 95% 以 上 的 非 蒙 
古文 特殊 字符 情况 上 3， 可 以 准确 的 将 不 规范 蒙古 
文 文本 转换 为 规范 的 蒙古 文 拉 丁字 符 表 示 序 列 。 


之 后 我 们 使 用 基于 联合 对 齐 注 意 力 机 制 的 蒙古 文 
字母 转 音 素 模型 的 蒙古 文字 母 转 音 素 (Grapheme 
to Phoneme, G2P) 模型 5] 将 拉丁 字符 序列 转换 为 
其 音素 序列 表示 。 该 蒙古 文字 母 转 音素 模型 词 错 
误 率 低 至 6.2%, 与 汉语 英语 的 前 端 文本 处 理 模块 
P3 相 比 ， 已 达到 可 用 水 平 。 因 此 ,针对 我 们 蒙古 
文 文本 正则 化 和 蒙古 文字 母 转 音素 模型 的 优秀 表 
现 。 与 汉语 /英语 等 语音 合成 模型 上 231 类似 ， 本 文 
对 前 端 文 本 处 理 模 块 中 引入 的 不 可 避免 的 少量 错 
误 忽 略 不 计 ， 将 得 到 的 音素 序列 作为 蒙古 文 文 本 
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的 表示 序列 。 最 后 ， 文 本 编码 器 用 来 将 音素 序列 
进行 语义 信息 编码 ， 输 出 音素 向 量 。 

假设 给 定 蒙古 文 文本 X， 蒙 古文 文本 预 处 理 
将 其 转换 为 音素 序列 W = {Wi,W,.…,Wr} (TH 
示 文 本 中 音素 的 个 数 )。 之 后 蒙古 文 文本 编码 器 读 
取 转 换 后 的 蒙古 文 音素 序列 W 将 其 转换 为 深层 次 
的 音素 向 量 尺 = {6'1,8'2,...,B'r}。 最 后 音素 向 量 E' 
与 位 置 向 量 Q 相 加 后 得 到 新 的 音素 向 量 E = 


{E 2,.…,E7} 被 送 入 到 蒙古 语 声 学 调节 器 对 时 长 、 


基 频 、 能 量 等 信息 进行 预测 。 
3.1.2 蒙古 语 声学 调节 器 

1) 蒙古 语 时 长 预测 器 

蒙古 语 时 长 预测 器 以 文本 编码 器 输出 的 音素 
向 量 E 为 输入 ， 对 音素 的 持续 时 间 信 息 D = 
{D1,D2,.…, Dr}〈 每 个 音素 持续 语音 帧 的 数量 ) 进 
行 预测 。 其 内 部 结构 与 FastSpeech2 类 似 , 包括 2 
层 搭配 ReLU 激活 函数 的 CNN 网 络 和 1 层 全 连 
接 层 。 每 一 层 CNN 后 都 使 用 了 正则 化 层 (Layer 
Normalization, LN) 和 和 暂 退 层 (Dropout Layer) 
来 增加 模型 泛 化 性 。 

如 图 2b 所 示 , 在 模型 训练 阶段 , 我 们 需要 为 
蒙古 语 声学 调节 器 中 的 时 长 预测 器 准备 蒙古 文 音 


素 的 时 长 信息 作为 训练 目标 来 计算 时 长 损失 函数 : 


Lossuur = MSE(D,D) (1) 
EHD = {D D, .Dr} 表 示 预 提取 的 音素 时 长 信 


+ 


I 


eal 


参照 汉语 和 英语 等 主流 语言 的 最 新 进展 ， 目 


取 ， 作 为 时 长 预测 器 的 训练 目标 来 计算 Lossuwr。 
下 面 将 对 这 两 种 方法 进行 详细 介绍 。 
(DD 基于 蒙古 语 语音 识别 的 对 齐 方法 CASRDur) : 

如 图 2c 所 示 , 蒙古 语 语音 识别 模型 以 语音 的 
梅 尔 倒 频 谱系 数 (Mel Frequency Cepstral Coeffi- 
cents, MFCC) 为 输入 ， 通 过 6 层 TDNN 网 络 和 
1 层 Softmax 输出 层 输出 每 个 音素 的 状态 标签 4 
4。 最 后 ， 所 需要 的 音素 时 长 可 以 根据 “状态 标签 
-语音 帧 -音素 ”三 者 之 间 的 对 应 关系 转换 得 到 [471。 
Q) 基于 自 回归 蒙古 语 语音 合成 的 对 齐 方法 (ARTTSDur) : 

如 图 2d 所 示 , 基于 自 回 归 声 学 建 模 的 蒙古 语 
语音 合成 模型 以 蒙古 文 音素 表示 为 输入 , 通过 “ 编 
码 器 -注意 力 -解码 器 ”的 模型 结构 对 语音 的 Mel 频 
谱 参 数 进行 预测 。 在 训练 阶段 ， 编 码 器 与 解码 器 
之 间 的 注意 力 机 制 用 来 学 习 输 入 音素 与 输出 语音 
帧 之 间 的 对 齐 关 系 。 训 练 结束 后 ， 可 以 对 任意 输 
入 蒙古 文 音素 序列 进行 前 向 计算 ， 得 到 该 序列 的 
注意 力矩 阵 并 从 中 解析 出 该 输入 序列 中 每 个 音素 
的 持续 时 间 。 
基于 自 回 归 的 蒙古 语 语音 合成 模型 采用 与 
Tacotron2 类 似 的 结构 ,编码 器 由 2 层 CNN 网 络 ， 
1 层 BLSTM 网 络 组 成 ,解码 器 由 2 层 预 处 理 Pre- 
Net 网 络 ，2 层 LSTM 网 络 ，1 层 线性 层 和 5 层 基 
于 CNN 的 后 处 理 Post-Net 网 络 组 成 。 由 于 音素 
时 长 信息 从 注意 力矩 阵 中 解析 得 到 ， 因 此 ， 注 意 
力 机 制 的 选择 对 最 终 时 长 信息 的 精确 性 之 间 相 关 。 
为 了 更 好 地 学 习 到 时 对 角 线 状态 的 注意 力矩 阵 ， 


前 面向 非 自 回归 语音 合成 的 时 长 预 提 取 一 般 采 用 


a 


与 传统 Tacotron2 中 的 location-aware attention!!>! 


两 种 方案 : 1) 使 用 预 训练 的 语音 识别 模型 作为 对 
齐 工具 ， 对 语音 解码 得 到 语言 单位 《如 : 字符 、 
音素 等 ) 的 时 长 信息 ; 2) 使 用 预 训练 的 自 回归 语 
音 合 成 模型 ， 对 语料库 的 文本 进行 前 向 计算 ， 将 


机 制 不 同 ， 本 文采 用 guided attention SHL iil] MVE 
意 力 矩阵 进行 对 角 线 约束 ， 从 而 可 以 实现 更 加 精 
确 的 时 长 学 习 。 

在 实验 部 分 ， 本 文 将 对 这 两 种 方法 提取 的 音 


得 到 的 注意 力 对 齐 信息 转换 为 时 长 信息 。 这 两 和 
方法 在 英语 、 汉 语 等 语言 表现 出 不 错 的 效果 ， 但 
是 由 于 字符 时 长 信息 表现 出 高 度 的 语言 相关 性 ， 
因此 ,英语 或 汉语 的 时 长 提取 模型 无 法 直接 使 用 ， 
而 面向 非 自 回归 蒙古 语 语音 合成 的 时 长 预 提取 也 
没有 可 用 模型 可 以 直接 使 用 。 
因此 ， 如 图 2b 所 示 ， 本 文 分 别 采用 OAM 
模 蒙 古语 语音 识别 数据 下 预 训练 的 蒙古 语 语音 识 
别 模型 以 及 (2)MonSpeech 下 预 训练 的 自 回 归 蒙 
古语 语音 合成 模型 进行 蒙古 语音 素 时 长 信息 的 提 


素 时 长 信息 的 准确 性 以 及 对 非 自 回归 声学 建 模 的 
有 效 性 进行 详细 验证 和 比较 。 

2) 音素 级 基 频 和 能 量 预测 器 
音素 级 基 频 和 能 量 预测 器 以 蒙古 文 文本 编码 
器 输出 的 音素 向 量 E 为 输入 ,分 别 对 音素 级 别 的 基 
频 (Phoneme-level Pitch, PP) 和 能 量 (Phoneme- 
level Energy，PE) 参数 进行 预测 。 

与 FastSpeech2 中 基 频 和 能 量 预测 器 对 帧 级 
别 的 基 频 、 能 量 参数 进行 预测 不 同 ， 本 文 的 音素 
级 基 频 、 能 量 预测 器 对 音素 级 别 的 基 频 、 能 量 参 


H 
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数 进 行 预 测 。 具 体 来 说 ， 我 们 先 对 语音 求 得 每 一 因此 ， 为 了 填补 这 一 空白 ， 确 保 蒙古 语 语音 
帧 的 基 频 和 能 量 参 数 ， 之 后 根据 预 提取 的 音素 时 ” 合成 又 快 又 好 , 本 文选 择 当前 最 优 的 基于 GAN 的 
长 信息 = {D1,D, .D7} 对 每 一 个 音素 的 所 有 帧 级 。 ” 声 码 器 : HiFi-GANDB1 进 行 蒙古 语 语音 波形 的 生成 。 
别 基 频 和 能 量 参数 求 平 均值 ， 得 到 音素 级 别 的 基 本 文 使 用 的 HiFi-GAN 与 文献 [31] 具 有 相似 
频 和 能 量 参数 ， 分 别 记 作 PP = {PPi,PP,.…,PPr} 和 的 结构 ， 包 括 一 个 生成 器 和 两 个 判别 器 ， 两 个 判 


PE = {PE}, PE,,..,PEr}。 别 器 分 别 为 多 周期 判别 器 和 多 斥 度 判别 器 。 生 成 
如 图 2b AR, 在 训练 阶段 , 我 们 使 用 从 训练 ”器 是 一 个 CNN 网 络 , 用 来 对 Mel 谱 进 行 升 采样 ， 

数据 中 提取 的 真实 的 音素 级 基 频 和 能 量 参数 为 目 ”将 长 度 ! 的 Mel 谱 序列 y 扩 展 到 语音 采样 点 长 度 K。 

标 来 计算 音素 级 的 基 频 和 能 量 损失 函数 ， 分 别 为 ” 多 周期 判别 器 通过 观察 输出 音频 菜 不 同 周期 的 不 


LOS Spp FILOS Spe o 同 部 分 来 捕获 不 同 的 隐 式 结构 ， 多 尺度 判别 器 聚 
Losspp = MSE(PP, PP) D) FRANTIC A AR IE, MT PRUE 3 
Losspe = MSE(PE, PE) O 号 的 高 保 真 生成 。 模 型 细节 可 见 文献 [31] 。 

HPPP, PERN HIN SEI HE HS BL MonTTS 系统 握 弃 之 前 使 用 的 Griffin-Lim 语音 


最 后 ， 时 长 规整 器 〈Length Regulator, LR) ” 构 算 法 ， 首 次 使 用 蒙古 语 语音 合成 数据 成 功 训练 
根据 时 长 预测 器 预测 的 字符 时 长 D = {D1,Dz,.…,Dr}， ”得 到 高 质量 的 蒙古 语 HiFi-GAN 声 码 器 ， 可 以 在 
将 字符 级 别 的 文本 特征 向 量 E = {651,62,.…,E7}、 基 频 实时 Mel 频谱 参数 预测 的 基础 上 ， 实 时 合成 高 保 
H BE Epp = {Epp p EPpy- Eper) HE HEIL BE Ep = 真 的 蒙古 语 语音 。 我 们 将 在 下 一 章 的 实验 部 分 对 
{Epg1, EPE z … Epp} ia A, 下 采样 为 帧 级 别 的 联合 MonTTS 系统 的 性 能 进行 验证 
特征 向 量 FE = 人 罗马 也) (1 表示 目标 Mel 谱 的 时 
K, 即 语音 帧 的 数量 ), 以 与 Mel 谱 进 行 长 度 匹 配 4 实验 
来 并 行 预测 梅 尔 频谱 参数 .Mel 谱 解码 器 (Mel De- 
coder) 读 取 联合 特征 向 量 FE 来 并 行 预 测 Mel 谱 ë 4.1 实验 数据 
Y = {%, Yo)... Yi}: 


Y = MelDecoder(FE +) (4) 蒙古 语 语 音 合成 模型 训练 数据 : 我 们 基于 本 
其 中 , 0 与 3.1.1 节 中 的 a 相同 , 均 表 示 位 置 编码 。 文 构建 的 MonSpeech 数据 集 进行 语音 合成 的 训练 。 


Fr 


综 上 所 述 ，MonTTS 的 非 自 回归 蒙古 语 声 学 。 如 第 二 章 中 介绍 , MonSpeech 包含 约 40 小 时 的 单 


己 ”模型 部 分 可 以 对 蒙古 文 文本 进行 处 理 ， 将 其 实时 ”说 话 人 蒙古 语 语音 及 其 对 应 约 4 万 句 文字 抄本 。 
O 转换 为 语音 的 Mel 频谱 特征 表示 。 训 练 阶段 的 总 。 ”我们 将 数据 按照 8: 1: 1 的 比例 划分 为 训练 集 、 
tit KK PR Bl Loss JJ Lossmet» Lossaur, LOSScp, LosSco VY 验证 集 和 测试 集 。 


个 损失 函数 的 总 和 。 之 后 非 自 回归 神经 声 码 器 将 蒙古 语 语音 识别 模型 预 训练 数据 : 针对 基于 
Mel 谱 特 征 实 时 生成 语音 波形 。 蒙古 语 语 音 识别 的 时 长 预 提取 方法 ， 我 们 使 用 内 
3.1.2 非 自 回归 神经 声 码 器 蒙古 大 学 计算 机 学 院 所 有 的 约 1500 小 时 的 多 说 

非 自 回归 神经 声 码 器 以 语音 的 梅 尔 频谱 Y= ” 话 人 蒙古 语 语 音 识别 标准 数据 I 进行 语音 识别 


{0,5} 为 输入 ,并 行 预测 输出 全 部 语音 采样 点 模型 的 训练 。 文 献 [46] 首 次 使 用 该 数据 进行 蒙古 
Z = (Ly Zo er Ze} (kK 表示 语音 采样 点 的 个 数 ), 最 终 。 ” 语 语 音 识别 实验 , 请 阅读 文献 [46] 了 解 该 数据 更 
输出 语音 波形 。 非 自 回 归 神 经 声 码 器 可 以 对 语音 ”多 信息 。 

采样 点 进行 并 行 生成 , 保证 语音 波形 的 实时 生成 。 

我 们 注意 到 非 自 回归 与 自 回归 神经 声 码 器 已 经 在 4 2 对 比 实验 设计 
人 为 了 验证 本 文 提出 的 MonTTS 在 解码 效率 和 
蒙古 语 语音 合成 领域 还 只 是 停留 在 基于 信和 号 处 理 EEN 


语音 音质 两 方面 的 表现 ， 本 文 一 共 构建 了 6 个 系 
的 声 码 嚣 阶段， 关于 实时 高 保 真 的 神经 网 络 声 码 p 
器 的 研究 实现 还 处 于 空白 阶段 。 


(1) Tacotron2 (GL): 该 系统 使 用 基于 自 回 
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归 机 制 的 Tacotron2 语音 合成 模型 进行 Mel 谱 参 
数 预测 ,之 后 使 用 Griffin-Lim 算法 进行 语音 重 构 ; 
(2) Tacotron2 (HiFiGAN): 该 系统 同样 使 
J Tacotron2 模型 预测 Mel 谱 ， 与 第 一 个 系统 不 
同 的 是 , 使 用 HiFiGAN 声 码 器 进行 语音 的 生成 。 
(3) FastSpeech2+ASRDur (HiFiGAN): 该 
系统 采用 FastSpeech2 模型 进行 Mel 预测 ， 使 用 
HiFiGAN 声 码 器 进行 语音 生成 。 其 中 ， 时 长 预测 
器 的 训练 目标 由 蒙古 语 语音 识别 模型 提供 。 
ASRDnur 表示 基于 蒙古 语 语音 识别 横 型 的 时 长 预 
提取 方法 。 
(4) FastSpeech2+ARTTSDur(HiFiGAN): 该 
系统 采用 FastSpeech2 模型 进行 Mel 预测 ， 使 用 
HiFiGAN 声 码 器 进行 语音 生成 。 其 中 ， 时 长 预测 


a 


Nae 


器 的 训练 目标 由 自 回归 蒙古 语 语音 合成 模型 提供 。 


ARTTSDur 表示 基于 自 回归 蒙古 语 语音 合成 模型 
的 时 长 预 提取 方法 。 

(5)MonTTS+ASRDur(HiFiGAN): 该 系统 采 
用 本 文 提出 的 MonTTS 模型 进行 Mel 预测 , 使 用 
HiFiGAN 声 码 器 进行 语音 生成 。 与 
FastSpeech2+ASRDur 类 似 , 时 长 预测 器 的 训练 目 
标 由 蒙古 语 语音 识别 模型 提供 。 与 (3) 和 “(4) 
相 比 ，MonTTS 在 蒙古 语 声学 调节 器 中 使 用 字符 
级 的 基 频 和 能 量 预测 器 。 

(6)MonTTS+ARTTSDur(HiFiGAN): 该 系统 
同样 采用 MonTTS 模型 和 HiFiGAN 声 码 器 。 其 
中 ， 时 长 预测 器 的 训练 目标 由 自 回归 蒙古 语 语音 
合成 模型 提供 。 


a 


4.4 实验 设置 


MonTTS 的 模型 参数 与 FastSpeech24)44 {L . 
文本 编码 器 和 声学 解码 器 均 包含 4 层 FFT 模块 ， 
音素 向 量 和 内 部 的 隐 层 向 量 都 是 256 维 。 我 们 将 
语音 数据 重 采样 到 22.05kHz 并 采用 帧 长 50ms, 
W 12.5ms 提取 80 维 的 Mel 谱 参 数 。Pitch 和 
Energy 也 使 用 与 FastSpeech2P9 相 同 的 参数 配置 
计算 。Droponut 比率 设置 为 0.5。 batch size 大 小 
设置 为 32。 我 们 使 用 与 FastSpeech2 相似 的 学 习 
率 动态 调整 方法 训练 模型 200k 步 。 其 余 Tacotron2 
和 FastSpeech2 模型 同样 训练 200k。 对 于 HiFi- 


l https://www.fon.hum.uva.nl/praat/ 


GAN 声 码 器 ， 我 们 先 训练 生成 器 100k 步 ， 之 后 
联合 训练 生成 器 和 判别 器 300k。ASRDur 方法 中 
6 层 TDNN 的 上 下 文 语音 帧 扩展 配置 为 [-1,0,1],[- 
1,0,1,2], [-3,0,3], [-3,0,3], [-3,0,3], [-6,-3,0] o 
ARTTSDur 方法 中 的 编码 器 解码 器 参数 配置 与 
Tacotron2 相同 。 

4.4 实验 结果 


4.4.1 蒙古 文 文本 表示 比较 

我 们 首先 基于 Tacotron2 (GL) 模型 对 蒙古 文 
的 文本 表示 方法 进行 比较 。 我 们 分 别 使 用 拉丁 字 
符 表 示 和 音素 表示 进行 模型 的 训练 ， 并 进行 主观 
听力 测试 比较 二 者 合成 语音 的 质量 。 我 们 从 测试 
集中 随机 选取 50 句 蒙 古文 文本 并 分 别 使 用 字符 
和 音素 序列 表示 进行 语音 合成 ,之 后 邀请 10 位 蒙 
十 族 青 年 学 生 对 100 名 合成 语音 进行 MOSH 
分 05- 优秀 , 4- 良 好 , 3- 可 接受 , 2- 一 般 , 1- 很 差 )。 
实验 结果 如 图 3 所 示 ， 音 素 序列 表示 的 MOS 分 
数 为 3.98， 显 著 优 于 字符 序列 的 分 值 3.82。 表 明 
音素 序列 与 蒙古 文 的 发 音信 息 直接 相关 ， 可 以 合 
成 自然 度 更 高 的 语音 。 之 后 的 实验 中 ， 所 有 的 蒙 
古语 语音 合成 系统 均 以 音素 序列 作为 输入 。 


4.4.2 蒙古 文 时 长 对 齐 方法 比较 
我 们 首先 对 基于 蒙古 语 语音 识别 和 自 回 归 蒙 
古语 语音 合成 两 种 音素 时 长 对 齐 方法 的 准确 度 进 
行 比较 。 我 们 从 测试 集中 随机 选取 50 名 蒙古 语 语 
音 及 其 对 应 音素 序列 ， 使 用 Praat 软件 进行 音素 
对 长 标注 。 之 后 ， 我 们 分 别 使 用 两 种 对 齐 方法 得 
到 的 音素 时 长 和 标注 的 真实 音素 时 长 计算 时 长 准 
H (phoneme duration accuracy) PH。 实验 结果 
如 表 2 所 示 ， 从 表 中 可 以 看 到 ， 语 音 识别 对 齐 方 
法 相 比 自 回归 语音 合成 对 齐 方法 可 以 得 到 更 精确 
的 时 长 信息 。 分 析 原 因 可 能 有 以 下 两 点 : 1) 蒙古 
语 语音 识别 模型 基于 1500 小 时 的 大 规模 多 说 话 
人 训练 数据 训练 得 到 ， 模 型 具有 很 好 的 泛 化 性 ， 
可 以 得 到 精确 的 “状态 标签 -语音 帧 -音素 ”对 应 关 
系 ; 2) 基于 自 回 归 语 音 合成 对 齐 方法 中 ,注意 力 
机 制 的 选择 是 能 否 得 到 精确 对 齐 关 系 的 关键 之 
对 角 线 指导 的 guided attention 还 没有 体现 出 注 ; 
力 对 齐 的 单调 特性 , 可 能 导致 对 齐 信息 不 够 精确 。 


TH 
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MOS 
4.1 
4.0 
3.9 
3.8 
3.7 
3.6 
3.5 


3.82 3.98 


Character Phoneme 


图 3 不 同 蒙古 文 文本 表示 的 MOS 分 数 (95% HE) 


表 2 ASRDur 和 ARTTSDur 两 种 方法 的 对 齐 精度 比较 


Method A (ms) 
ASRDur 14.02 
ARTTSDur 18.13 


443 蒙古 语 语音 合成 韵律 自然 度 比较 

本 节 我 们 将 从 客观 实验 和 主观 实验 两 个 方面 
对 不 同系 统 在 合成 语音 音质 方面 的 性 能 进行 详 旨 
比较 。 

对 于 客观 实验 ， 我 们 选择 Mel 
Distortion(MCDJ)P9 以 及 pitch 和 energy 的 均 方 误 


Cepstral 


试 。 测 试 样 本 选择 与 客观 实验 相同 ， 我 们 邀请 15 
位 蒙古 族 青年 学 生 对 所 有 合成 语音 和 对 应 的 真实 
语音 进行 MOS 打分 。 实 验 结果 如 图 4 所 示 ， 从 
图 中 可 以 看 出 本 文 提出 的 MonTTS 系统 搭配 我 们 
首次 基于 MonSpeech 数据 训练 得 到 的 HiFi-GAN 
声 码 器 ， 可 以 输出 高 保 真 的 合成 语音 ， 合 成 语音 
获得 了 接近 4.53 的 MOS 分 数 ， 显 著 优 于 所 有 基 
线 系 统 , 并 且 与 真实 语音 的 MOS 分 数 基 本 相当 。 

上 述 客 观 实验 和 主观 实验 的 实验 结果 充分 证 
明 本 文 提 出 的 MonTTS 系统 在 合成 语音 音质 方 
的 强大 性 能 。 下 一 节 我 们 将 比较 不 同系 统 在 合成 


效率 方面 的 表现 。 
表 3 _ 针对 语音 自然 度 的 客观 实验 结果 
MAE 
Method MCD : 
Pitch Energy 
Tacotron2 (GL) 8.53 20.73 0.552 
Tacotron2 (HiFi-GAN) 8.14 18.90 0.502 
FastSpeech2+ARTTSDur 7.74 18.89 0.483 
(HiFi-GAN) 
FastSpeech2+ASRDur (HiFi- 
GAN) 7.68 18.86 0.479 
MonTTS+ARTTSDur (HiFi- 7.53 18.41 0.462 
GAN) ee 
MonTTS+ASRDur (HiFi- 7.38 18.32 0.438 


GAN) 


差 (Mean Absolute Error, MAE) 三 个 指标 进行 语 
音质 量 的 测试 ,我 们 从 测试 集 随机 选取 50 句 文本 
并 使 用 不 同系 统 进行 语音 合成 ， 之 后 分 别 从 合成 
语音 和 真实 语音 中 提取 出 mel、pitch 和 energy 三 
种 声学 特征 并 且 计算 上 述 三 个 指标 。 在 指标 计算 
时 我 们 使 用 Dynamic time warping (DTW) 算法 
650 将 合成 语音 和 生成 语音 进行 对 齐 。 实 验 结果 如 
表 3 所 示 ， 可 以 发 现 : 1) 所 有 的 非 自 回归 语音 合 
成 模型 FastSpeech2 和 MonTTS 都 明显 优 于 
Tacotron2 模型 ，2)〉 本 文 提出 的 MonTTS 模型 与 
FastSpeech2 相 比 可 以 合成 更 接近 真实 语音 的 语 
音 参 数 ， 从 而 合成 更 加 自然 的 语音 ， 也 证 明了 我 
们 的 音素 级 别 声学 调节 器 可 以 更 好 的 学 习 蒙 古语 
的 长 时 韵律 特征 从 而 生成 韵律 更 自然 的 语音 ; 3) 
与 MonTTS+ARTTSDur 相 比 ，MonTTS+ASRDur 
输出 的 语音 参数 明显 较 优 。 从 另 一 角度 证 明 语音 
识别 对 齐 方 法 可 以 提供 更 加 准确 的 时 长 监督 ， 有 
利于 更 加 自然 的 语音 生成 ; 4) 本 文 基于 
MonSpeech 训练 的 HiFi-GAN 声 码 器 显著 优 于 传 
统 的 Griffin-Lim 算法 , 可 以 得 到 高 质量 的 合成 语 
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对 于 主观 实验 ， 我 们 进行 主观 MOS 听力 测 


4.4.4 蒙古 语 语音 合成 效率 比较 


我 们 同样 采用 上 一 节 的 50 句 测 试 集 进行 语音 合 
成 速度 测试 ,我 们 使 用 不 同系 统 对 50 句 测试 集 进 
行 10 次 语音 合成 ， 统 计 每 次 合成 所 需要 的 时 间 。 
之 后 以 50 测试 集 对 应 真实 语音 的 时 间 为 参照 , 计 
算 语音 合成 实时 率 (Real-time factor, RTF) 4, 
实验 结果 如 表 4 所 示 , 从 表 中 我 们 发 现 1)MonTTS 
(HiFi-GAN) 与 Tacotron2 (HiFi-GAN) 相 比 ， 
实时 率 显著 提升 ， 说 明 非 自 回归 声学 模型 在 合成 
效率 上 显著 优 于 自 回 归 Tacotron2 结构 ; 2) 
Tacotron2 (HiFi-GAN ) 与 Tacotron2 (GL) 相 比 ， 
说 明 本 文 训练 得 到 的 HiFi-GAN 声 码 器 同样 凭借 


其 非 自 回归 的 快速 波形 生成 能 力 在 合成 效率 上 表 
现 出 优秀 的 性 能 。 本 文 提 出 的 MonTTS (HiFi- 


GAN) 的 合成 实时 率 达 到 了 3.63x 103， 已 经 达到 
实时 合成 ， 可 以 很 好 的 满足 实际 应 用 需求 。 

综 上 所 述 ， 本 文 提 出 的 MonTTS 模型 在 合成 
语音 音质 和 合成 效率 两 方面 均 表 现 出 优异 的 性 能 ， 
显著 优 于 所 有 基线 系统 。MonTTS 实现 了 第 一 个 
全 非 自 回归 的 实时 、 高 保 真 蒙古 语 语音 合成 系统 。 
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图 4 针对 语音 自然 度 的 主观 实验 结果 ， 其 中 1) - (6) 分 
别 表 示 4.2 节 中 构建 的 6 个 对 比 系统 ， 由 于 空间 限制 仅 使 用 其 数字 
编号 代表 系统 名 称 


表 4 不同 系统 的 合成 实时 率 比 较 
Method RTF 


Tacotron2 (GL) 9.13 x 107! 
Tacotron2(HiFi-GAN) 9.01 x 10°! 
MonTTS(HiFi-GAN) 3.63x 103 


5 总 结 


本 文 提 出 首 个 完全 非 自 回归 机 制 的 实时 、 高 
保 真 蒙 古语 语音 合成 系统 MonTTS 。 基 于 当前 先 
HERY FastSpeech2 并 针对 蒙古 文 文本 表示 、 蒙 古文 
韵律 建 模 和 蒙古 文 时 长 建 模 提出 音素 表示 、 音 素 
级 基 频 和 能 量 预测 器 以 及 基于 蒙古 语 语 音 识别 和 
自 回 归 蒙 古语 语音 合成 的 时 长 对 齐 方法 。 实 验 结 
果 表 明 ， 本 文 提出 的 MonTTS 在 语音 质量 和 合成 
效率 两 方面 优 于 所 有 基线 系统 ， 达 到 高 保 真 语音 
的 实时 合成 ， 可 以 为 上 游 蒙 古语 语音 交互 系统 提 
供 全 新 的 技术 服务 。 本 文 实验 仅 使 用 单一 女性 说 
话 人 语 料 进行 实验 ， 为 了 更 好 的 验证 模型 在 不 同 
说 话 人 的 效果 ， 未 来 工作 将 收集 整理 更 多 的 说 话 
人 数据 (包括 不 同年 龄 段 的 男性 和 女性 说 话 人 等 ) 
对 MonTTS 模型 的 有 效 性 进行 验证 。 更 进一步 ， 
未 来 研究 将 对 该 模型 进行 扩展 ， 实 现 高 质量 的 多 
说 话 人 和 多 情感 的 蒙古 语 语音 生成 能 
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